1. KoPDP2020
- (1) 2010년부터 2016년까지의 일반출원 데이터를 다시 수집하고, (2) 1984년-2016년의 PCT 출원을 새롭게 수집하고, (3) 2017년의 일반출원, PCT 출원을 새롭게 수집하여 기존의 KoPDP 데이터베이스에 통합하는 작업
- code 폴더 내의 
	- downloader.py: 2010년-2017년 출원된 KIPO 출원(PCT 제외)의 데이터를 새롭게 크롤링하는 파일
	- pcT: 1984년부터 2017년에 출원된 모든 PCT KIPO 출원의 데이터를 크롤링
	- merging: 크롤링된 xml 파일들을 연도별로 하나의 xml 파일로 통합
	- parsing: merging에 의해 통합된 파일을 파싱하여 raw 폴더 내의 csv 파일들을 생성
- old 폴더 내의 파일들은 KoPDP2018 결과 생성된 파일
- script.do 파일 실행 결과 result 파일에 KoPDP2020 결과 파일 저장


2. family_crawling
- 각 KIPO 출원에 simple family(equivalent family)로 묶여있는 "패밀리 출원"들을 EPODOC 번호 포맷으로 크롤링하는 작업
- crawling.py의 downloader() 함수는 입력된 KIPO 출원번호에 대응되는 패밀리 출원을 크롤링하는 함수. Line 16의 "Authorization" 부분을 자신의 EPO Developer Portal Consumer ID, Secret Key로 대체해야함. KIPO 출원번호 쿼리는 연도별 출원번호에 대해 리퀘스트된 KIPRIS PLUS 서지 상세정보 API의 response 파일(1. KoPDP2020의 merging 결과 생성된 xml 파일)을 이용함. 가능한 출원번호의 범위를 리스트로 만들어 대체 가능
- merging.py는 오류가 나지 않은 response 파일들을 연도별로 하나의 xml 파일로 통합함
- parsing.py 파일로 merging.py의 결과를 파싱하여 equivalents.csv 파일 생성


3. number_service
- EPODOC 번호에 대응되는 KIPO 공개번호/등록번호 및 USPTO 공개번호/등록번호를 크롤링하는 작업
- raw 폴더 내 equivalents.csv 파일(2. family_crawling 의 결과)에 등장하는 모든 EPODOC 번호에 대하여 대응되는 original number를 크롤링
- 크롤링 결과 numbers.dta, KR_numbers.dta, US_numbers.dta 파일을 생성. 이 파일은 3. merging 에 사용됨


4. merging
- equivalents.csv에 등장하는 EPODOC 번호들을 3. number_service의 결과를 이용하여 KIPO 출원은 출원번호로, USPTO 특허는 등록번호로 변경
- result 폴더 내 equivalents_final.dta 생성


5. family_class
- equivalents.csv에서 KIPRIS, USPTO에 출원된 패밀리 출원들만을 남기고 이들을 동등패밀리로 묶어 고유의 ID를 부여하는 작업
- family_class.py: equivalents.csv에서 KIPRIS, USPTO에 출원된 패밀리 출원들의 epodoc 번호만을 남기고, epodoc 번호를 이용하여 KIPO 출원번호별로 해당 출원이 속한 동등패밀리를 계산하고, 모든 동등패밀리 목록을 temp/family_class_first.pickle, temp/family_class_first.csv로 저장
- correction1.py: family_class_first의 결과에서 서로소 조건을 충족하지 않는 패밀리 쌍을 계산하고, 각 패밀리를 둘의 합집합으로 수정. 수정된 결과를 temp/family_classs_second 파일로 저장
- correction2.py: family_class_second의 결과를 이용하여 correction1.py의 작업을 동일하게 수행. 결과를 temp/family_class_third로 저장하고 서로소 조건이 잘 충족됨을 확인. 최종 결과를 result/family_class_final 로 저장
- result/family_class_final.dta: 각 epodoc 번호에 고유의 family ID를 부여한 파일


6. final
- merging과 family_class의 결과를 이용하여 각 KIPO 출원번호에 대응되는 패밀리출원의 EPODOC 번호, 그에 대응되는 KIPO appnum 혹은 USPTO wku, 그리고 그 appnum이 속한 동등패밀리의 ID를 대응시키는 작업
- result/family_matching.dta에 결과 저장
 